অ্যাপাচি টিকা (Apache Tika) এবং Tesseract OCR এর সমন্বয়ে বিভিন্ন ইমেজ ও পিডিএফ ফাইল থেকে টেক্সট এক্সট্রাক্ট (Text Extraction) করা সম্ভব। Tesseract হল একটি ওপেন-সোর্স OCR (Optical Character Recognition) টুল, যা ইমেজের মধ্যে থাকা লেখা শনাক্ত করে টেক্সট আকারে ফিরিয়ে দেয়। টিকা এবং Tesseract একসাথে কাজ করলে স্ক্যানড পিডিএফ এবং ইমেজ থেকে টেক্সট রিড করা সহজ হয়।
Tesseract OCR সম্পর্কে সংক্ষিপ্ত পরিচিতি
Tesseract হল একটি জনপ্রিয় OCR ইঞ্জিন, যা গুগল দ্বারা রক্ষণাবেক্ষণ করা হয়। এটি:
- ইমেজ-ভিত্তিক টেক্সট রিডিং এর জন্য ব্যবহার হয়।
- বহু ভাষা সাপোর্ট করে।
- বিনামূল্যে এবং ওপেন-সোর্স।
অ্যাপাচি টিকা এবং Tesseract OCR ইন্টিগ্রেশন
১. প্রয়োজনীয় টুল ইন্সটলেশন
অ্যাপাচি টিকা ইন্সটলেশন
- Apache Tika ডাউনলোড করুন।
- Tika-app.jar ফাইল রান করার জন্য Java Runtime Environment (JRE) ইন্সটল থাকতে হবে।
Tesseract OCR ইন্সটলেশন
Linux:
sudo apt-get install tesseract-ocr
sudo apt-get install tesseract-ocr-eng
Windows:
- Tesseract OCR ডাউনলোড ও ইন্সটল করুন।
- ইন্সটলেশন ডিরেক্টরিটি সিস্টেম PATH এ যুক্ত করুন।
২. কনফিগারেশন
Apache Tika স্বয়ংক্রিয়ভাবে Tesseract OCR সাপোর্ট করে যদি Tesseract সঠিকভাবে ইন্সটল থাকে। টিকা OCR কনফিগারেশন ফাইল (tika-config.xml) এর মাধ্যমে Tesseract এর সাথে কাজ করতে পারে।
উদাহরণ tika-config.xml:
<?xml version="1.0" encoding="UTF-8"?>
<tika-config>
<parser class="org.apache.tika.parser.ocr.TesseractOCRParser">
<params>
<param name="tesseractPath" type="string">/usr/bin/tesseract</param>
<param name="language" type="string">eng</param>
<param name="outputType" type="string">txt</param>
</params>
</parser>
</tika-config>
তথ্য:
tesseractPath: Tesseract এর ইনস্টল পাথ।language: OCR এর ভাষা (যেমনengইংরেজি)।
৩. রানিং Apache Tika এবং Tesseract OCR
টিকা OCR পার্সার ব্যবহার করে ইমেজ বা স্ক্যানড পিডিএফ থেকে টেক্সট এক্সট্রাক্ট করতে কমান্ডটি রান করুন:
java -jar tika-app-x.x.jar -t --config=tika-config.xml input-image.pdf
ব্যাখ্যা:
tika-app-x.x.jar: Apache Tika অ্যাপ ফাইল।--config: কাস্টম কনফিগারেশন ফাইল।input-image.pdf: OCR প্রক্রিয়ার জন্য ইনপুট ফাইল।
অ্যাপাচি টিকা ও Tesseract OCR এর সুবিধা
- স্ক্যানড ডকুমেন্ট সাপোর্ট: স্ক্যানড পিডিএফ এবং ইমেজ থেকে টেক্সট এক্সট্রাক্ট করা সহজ।
- বহুভাষা সমর্থন: Tesseract বহু ভাষায় কাজ করতে পারে।
- মাল্টিপার্পাস প্রসেসিং: ইমেজ ও পিডিএফের পাশাপাশি অন্যান্য ফাইল থেকে ডেটা বিশ্লেষণ করা যায়।
- ফ্লেক্সিবল কনফিগারেশন: টিকার কনফিগারেশন পরিবর্তন করে কাজকে সহজ করা যায়।
সারাংশ
অ্যাপাচি টিকা এবং Tesseract OCR এর সমন্বয় একটি শক্তিশালী টুল তৈরি করে, যা স্ক্যানড ডকুমেন্ট, ইমেজ এবং পিডিএফ থেকে টেক্সট এক্সট্রাক্ট করতে সক্ষম। এই ইন্টিগ্রেশন বড় স্কেল ডেটা প্রসেসিং এবং ডকুমেন্ট ম্যানেজমেন্টের ক্ষেত্রে গুরুত্বপূর্ণ ভূমিকা পালন করে।